scrapy中item的处理技巧

scrapy中item的处理技巧

Field 的类型

Scrapy中只有一种类型,就是 scrapy.Field(),类似于字典。

url 的拼接

meta

meta 在 Request 中作为参数,是一个字典。放在yield Request()中。

yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url":image_url}, callback=self.parse_detail)

这样在回调函数callback=self.parse_detail中进行调用,调用的方法是

front_image_url = response.meta.get("front_image_url","") # 文章封面图

urljoin() 可以拼接两个网址,详见《urljoin()拼接两个网址》。

item的使用

1》定义 item

class JobBoleArticleItem(scrapy.Item):
    title = scrapy.Field()
    create_date = scrapy.Field()
    url = scrapy.Field()
    url_object_id = scrapy.Field()
    front_image_url = scrapy.Field()
    front_image_path = scrapy.Field()
    praise_nums = scrapy.Field()
    comment_nums = scrapy.Field()
    fav_nums = scrapy.Field()
    tags = scrapy.Field()
    content = scrapy.Field()

2》item获取数据

item在spider中实例化,并获取数据。

from ArticleSpider.items import JobBoleArticleItem

class JobboleSpider(scrapy.Spider):
    #...

    def parse(self, response):
        #...
        next_url = response.css(".next.page-numbers::attr(href) ").extract_first()
        if next_url:
            yield Request(url=next_url, callback=parse)

    def parse_detail(self, response):
        # 引入 item 并实例化
        article_item = JobBoleArticleItem()
        # ...
        
        article_item["title"] = title
        article_item["url"] = response.url
        article_item["create_date"] = create_date
        article_item["front_image_url"] = front_image_url
        article_item["praise_nums"] = praise_nums
        article_item["comment_nums"] = comment_nums
        article_item["fav_nums"] = fav_nums
        article_item["tags"] = tags
        article_item["content"] = content

        yield article_item

最后 yield到pipelines中处理。

3》pipelines 处理 item

首先打开settings中的pipelines注释,只要把注释取消掉即可。

ITEM_PIPELINES = {
   'ArticleSpider.pipelines.ArticlespiderPipeline': 300,
}

在pipelines中debug。在第二行def..与第三行return item打断点。

class ArticlespiderPipeline(object):
    def process_item(self, item, spider):
        return item

debug运行到断点处,看item的变量_values,可以看到数据结果。

这时,pipelines可以:drop item 或者 存储item。

4》下载图片

配置下载pipelines

在settings中,加入下载图片的pipeline。

在源码中可以找到:/Users/macroot/virtualenvs/article_spider/lib/python3.5/site-packages/scrapy/pipelines/images.py

在pycharm中的site-packages中可以找到。

settings中设定目录

在Article_spider目录(与settings文件在同一个目录)中,设定item中哪个是图片下载地址(IMAGES_URLS_FIELD),文件夹的相对路径,文件下载存储目录(IMAGES_STORE)。

import os
#...
IMAGES_URLS_FIELD = "front_image_url"
project_dir = os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE = os.path.join(project_dir, "images")

两个注意点,

  • pip install -i https://pypi.douban.com/simple pillow
  • article_item["front_image_url"] = [front_image_url] 在spider中获取的数据,以list形式提交。

最后运行main.py文件,就可以开始下载。

下载路径绑定:定制自己的pipelines

存储的路径也需要与item绑定。定制ImagesPipeline

from scrapy.pipelines.images import ImagesPipeline
#...
class ArticleImagePipeline(ImagesPipeline):

ImagesPipeline中可以过滤下载图片的大小,放在settings中,要求下载的图片最小高度和最小宽度都是100.

IMAGES_MIN_HEIGHT = 100
IMAGES_MIN_WIDTH = 100

在scrapy.pipelines.images中,搜索IMAGES_MIN_HEIGHTIMAGES_MIN_WIDTH,可以看到有定义。

self.min_height = settings.getint(
            resolve('IMAGES_MIN_HEIGHT'), self.MIN_HEIGHT
        )
        self.thumbs = settings.get(
            resolve('IMAGES_THUMBS'), self.THUMBS
        )

(这里只是演示,不需要设置)

scrapy.pipelines.images中,这个函数接收的是list或迭代器,如果是一个值就会出错。

获取url之后,返回一个 Request,并交给下载器。

    def get_media_requests(self, item, info):
        return [Request(x) for x in item.get(self.images_urls_field, [])]

可以用此函数获取存储地址。重载该函数。

    def item_completed(self, results, item, info):
        if isinstance(item, dict) or self.images_result_field in item.fields:
            item[self.images_result_field] = [x for ok, x in results if ok]
        return item

路径实际是存放在 result里面。通过 result 获取文件实际的存储路径。

首先,不知道 result 的结构,下面写pass打断点。

class ArticleImagePipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        pass

首先,要把images/full文件删除掉/full/文件夹,如果不删,就不会下载,scrapy会查询。

然后,把settings中的图片下载pipeline改为自己定制的。

list中嵌套turple

results是一个list,每一个元素是一个turple。0这个turple里面第一个值 0=True,表示是否成功。第二个值是一个字典,里面有一个键pathpath的值就是文件路径。

results 是一个 turple。对于for ok表示是否成功,value in results。

因为results = (True, {dict}),所以Python自动识别字典。

class ArticleImagePipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        for ok, value in results:
            image_file_path = value["path"]

这里可以参看《list中嵌套turple》

最后要把item return 回去,因为还有其他pipelines要处理。

为了核实是否能够保存图片的路径,在下面pipeline的第三行打断点

class ArticlespiderPipeline(object):
    def process_item(self, item, spider):
        return item

可以查看其中value。

md5处理url

参考《hashlib.md5 处理 url》。

from ArticleSpider.utils.common import get_md
#...
article_item["url_object_id"] = get_md(response.url)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,585评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,923评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,314评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,346评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,718评论 3 291
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,828评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,020评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,758评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,486评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,722评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,196评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,546评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,211评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,132评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,916评论 0 200
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,904评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,758评论 2 274

推荐阅读更多精彩内容